Python pandas 里面的数据类型坑,astype要慎用 |
您所在的位置:网站首页 › pandas to string › Python pandas 里面的数据类型坑,astype要慎用 |
背景
最近在项目处理数据时,对pandas里面的数据类型进行转换时(astype),产生了一些意外的情况,经过研究,对数据框里面的数据类型,又有了新的认识,分享出来供大家参考学习。 创建模拟数据 模拟数据 假如模拟的数据如上图所示,里面有一些空单元格,下面读取模拟数据 import pandas as pd import numpy as np data=pd.read_excel('111.xlsx',sheet_name='astype') data 读取模拟数据 查看整体数据类型,可以看出所有的数据类型均为object,这里的object对应的是python里面的str字符类型 data.dtypes 数据类型 数据类型对应 查看字段4每一个数据是什么类型 for i in data['字段4']: print(i,'\t',type(i)) 每个数据类型可以看出字段4这一列里面,有str、float、int三种数据类型,这里就可以看出一列里面数据类型可以不同,类似Excel一列,每个单元格可以存放不同类型的数据,和数据库里面一列完全不一样,数据库里面一列数据类型在建表时,已声明类型,只存放一种类型。但是上面在获取整列数据类型时返回的是object,用的是最大的数据类型,能囊括整列的数据类型 如果astype类型强制转换 data['字段4_astype']=data['字段4'].astype('str') data for i in data['字段4_astype']: print(i,'\t',type(i)) 类型强制转换可以看出这里全部转换为str,NaN也会强制转换为字符型nan,不再是np.nan nan这样的话就出现一个问题,astype是强制把所有的类型都转换为str,而不忽略NaN,要对非NAN进行转换,就需要自定义函数来实现 自定义函数实现非NAN转换类型 def astype_str_notna(df): ''' 传入参数:数据框里面一列 Series return:转换后的一列 Series ''' t=[] for i in df: if type(i)== float: if not np.isnan(i): i=str(int(i)) if type(i)== int: i=str(i) t.append(i) return pd.Series(t) data['字段4_def']=astype_str_notna(data['字段4']) data data['字段4'].isna() 自定义函数通过自定义函数,可以实现数据类型转换,而忽略NAN,从而达到在数据统计时,不会计算NAN 数据统计 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |